31 research outputs found

    GAMoN: Discovering M-of-N{,∨} hypotheses for text classification by a lattice-based Genetic Algorithm

    Get PDF
    AbstractWhile there has been a long history of rule-based text classifiers, to the best of our knowledge no M-of-N-based approach for text categorization has so far been proposed. In this paper we argue that M-of-N hypotheses are particularly suitable to model the text classification task because of the so-called “family resemblance” metaphor: “the members (i.e., documents) of a family (i.e., category) share some small number of features, yet there is no common feature among all of them. Nevertheless, they resemble each other”. Starting from this conjecture, we provide a sound extension of the M-of-N approach with negation and disjunction, called M-of-N{¬,∨}, which enables to best fit the true structure of the data. Based on a thorough theoretical study, we show that the M-of-N{¬,∨} hypothesis space has two partial orders that form complete lattices.GAMoN is the task-specific Genetic Algorithm (GA) which, by exploiting the lattice-based structure of the hypothesis space, efficiently induces accurate M-of-N{¬,∨} hypotheses.Benchmarking was performed over 13 real-world text data sets, by using four rule induction algorithms: two GAs, namely, BioHEL and OlexGA, and two non-evolutionary algorithms, namely, C4.5 and Ripper. Further, we included in our study linear SVM, as it is reported to be among the best methods for text categorization. Experimental results demonstrate that GAMoN delivers state-of-the-art classification performance, providing a good balance between accuracy and model complexity. Further, they show that GAMoN can scale up to large and realistic real-world domains better than both C4.5 and Ripper

    Delayed surgery in neurologically intact patients affected by thoraco-lumbar junction burst fractures: to reduce pain and improve quality of life

    Get PDF
    This is a retrospective study on 18 patients affected by thoraco-lumbar junction burst fractures (TLJBF) A3 or A4 at computed tomography (CT) scan who referred to our hospital. To assess the surgical results in terms of pain and quality of life in a series of neurologically intact patients affected by TLJBF who underwent surgery after 3-4 months from the injury. In literature there is controversy if pain could be an indication for surgery in TLJBF and series of patients conservatively managed with success have been reported

    Posterolateral arthrodesis in lumbar spine surgery using autologous platelet-rich plasma and cancellous bone substitute: an osteoinductive and osteoconductive effect

    Get PDF
    Study Design Prospective cohort study. Objectives To analyze the effectiveness and practicality of using cancellous bone substitute with platelet-rich plasma (PRP) in posterolateral arthrodesis. Methods Twenty consecutive patients underwent posterolateral arthrodesis with implantation of cancellous bone substitute soaked with PRP obtained directly in the operating theater on the right hemifield and cancellous bone substitute soaked with saline solution on the right. Results Computed tomography scans at 6 and 12 months after surgery were performed in all patients. Bone density was investigated by comparative analysis of region of interest. The data were analyzed with repeated-measures variance analyses with value of density after 6 months and value of density after 12 months, using age, levels of arthrodesis, and platelet count as covariates. The data demonstrated increased bone density using PRP and heterologous cancellous block resulting in an enhanced fusion rate during the first 6 months after surgery. Conclusions PRP used with cancellous bone substitute increases the rate of fusion and bone density joining osteoinductive and osteoconductive effect

    A techinique for automatic generation of rule-based text classifiers exploiting negative information

    No full text
    Dottorato di Ricerca in Matematica ed Informatica,XIX Ciclo,a.a. 2005-2006UniversitĂ  della Calabri

    Disjunctive Stable Models: Unfounded Sets, Fixpoint Semantics, and Computation

    Get PDF
    Disjunctive logic programs have become a powerful tool in knowledge representation and commonsense reasoning. This paper focuses on stable model semantics, currently the most widely acknowledged semantics for disjunctive logic programs. After presenting a new notion of unfounded sets for disjunctive logic programs, we provide two declarative characterizations of stable models in terms of unfounded sets. One shows that the set of stable models coincides with the family of unfounded-free models (i.e., a model is stable iff it contains no unfounded atoms). The other proves that stable models can be defined equivalently by a property of their false literals, as a model is stable iff the set of its false literals coincides with its greatest unfounded set. We then generalize the well-founded WP operator to disjunctive logic programs, give a fixpoint semantics for disjunctive stable models and present an algorithm for computing the stable models of function-free programs. The algor..

    GAMON discovering M-of-N hypotheses for text classification by a lattice-based genetic algorithm

    No full text
    Dottorato di Ricerca in Matematica ed Informatica, XXV Ciclo, a.a. 12013-2014Lo sviluppo delle moderne tecnologie informatiche, nonch´e la diffusione dei servizi per il Web, ha portato ad una considerevole produzione di informazioni e dati di diversa natura: documenti testuali (dati non strutturati), basi di dati (dati strutturati) e pagine Html (dati semi-strutturati). La disponibilit` a, sempre pi`u crescente, di considerevoli quantit`a di dati ha posto, di conseguenza, il problema della loro memorizzazione, della loro organizzazione e del loro reperimento. Inoltre, se non ci fossero strumenti idonei a trattare le sole informazioni di interesse, tutti questi dati rischierebbero di essere inutilizzabili. Le informazioni, infatti, rappresentano il punto di partenza per l’estrazione di conoscenza, attivit`a che, in passato, ha fatto riferimento all’analisi e all’interpretazione manuale, fondata sull’attivit`a di uno o pi`u esperti addetti a prendere le decisioni sul caso corrente. L’analisi manuale, chiaramente, presenta molteplici aspetti negativi. Prima tra tutti essa `e caratterizzata da lunghi tempi di analisi e da alti costi di realizzazione; infine, risulta altamente soggettiva e in accurata. Tali aspetti negativi vengono ulteriormente aggravati dall’enorme mole di dati da dover trattare. Aggregare, classificare e recuperare le informazioni di interesse con tempestivit`a, efficacia e a costi ridotti `e sicuramente pi`u vantaggioso rispetto ai tradizionali approcci di analisi manuale. In particolare, la possibilit`a di poter classificare automaticamente enormi quantit`a di documenti, potendoli poi ritrovare facilmente sulla base dei concetti espressi e sulle tematiche trattate, piuttosto che affidarsi ad un’analisi manuale, `e una necessit`a che viene sentita non solo dalla comunit`a scientifico/accademica, ma anche da quella aziendale, commerciale e finanziaria. Il Text Classification (TC) o Text Categorization `e una disciplina che coniuga diverse aree di ricerca, dall’Information Retrieval (IR), al Machine Learning (ML), al Natural Language Processing (NLP) e mira alla costruzione di sistemi per la classificazione automatica dei dati in categorie tematiche di interesse. In particolare, nel TC, i dati sono costituiti da una collezione di documenti testuali non strutturati, i quali vengono suddivisi in gruppi sulla base del contenuto, attraverso l’assegnamento del testo ad una o pi`u categorie tematiche predefinite. Le prime ricerche nell’ambito del TC risalgono all’inizio degli anni ‘60. Tuttavia, `e solo nell’ultimo decennio che tale problema sta suscitando un interesse crescente sia nel settore della ricerca scientifica che in contesti industriali. Possibili applicazioni del TC spaziano dall’indicizzazione automatica di articoli scientifici, all’organizzazione delle e-mail, al filtraggio dello spam, ecc. Negli ultimi decenni, sono stati proposti un gran numero di sistemi per la classificazione di documenti testuali suddivisibili, principalmente, in tre macro-tipologie sulla base dell’approccio seguito nella costruzione dei classificatori: • approccio di tipo Expert Systems (ES); • approccio di tipo Machine Learning (ML); • approccio di tipo Ibrido. Ibrido. Il primo approccio, affermatosi all’inizio degli anni ’60 prevede l’impiego di esperti di dominio (classificazione manuale) nella definizione dei classificatori per le categorie di interesse. Questo tipo di approccio ha consentito la definizione di classificatori molto efficaci. Di contro, per`o, l’approccio di tipo ES presenta due svantaggi principali: risulta molto dispendioso in termini di risorse umane utilizzate e poco flessibile. Infatti, nel momento in cui cambia il contesto di riferimento, i nuovi classificatori devono essere nuovamente definiti manualmente. Per questo motivo, a partire dagli anni ’90, l’approccio di tipo ES `e stato quasi completamente sostituito dall’approccio di tipo ML, il cui obiettivo principale non `e la definizione dei classificatori, quanto la costruzione di sistemi in grado di generare automaticamente i classificatori. Pi`u in particolare, nell’ambito di questo paradigma, l’obiettivo `e la definizione di sistemi capaci di apprendere automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo Expert Systems. I sistemi di apprendimento, infatti, mostrano generalmente un’elevata efficacia, consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini. Negli ultimi anni sono stati proposti svariati sistemi per la classificazione automatica di documenti testuali basati, essenzialmente, su processi di tipo induttivo. Tali sistemi sfruttano, generalmente, misure statistiche e, talvolta, vengono importati nell’ambito del TC da altre aree dell’Information Retrieval e del Data Mining. Un esempio emblematico `e il caso delle Support Vector Machine (SVM) utilizzate, dapprima, per la risoluzione di problemi di regressione e, attualmente, considerate allo stato dell’arte per il Text Categorization. Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli algoritmi di apprendimento ”a regole” o ”rule-based”, dove i classificatori vengono specificati come insiemi di regole. Tali classificatori hanno la propriet`a desiderabile di essere comprensibili da un lettore umano, mentre la maggior parte degli altri approcci esistenti, come SVM e Neural Network, producono classificatori che difficilmente un lettore umano riesce ad interpretare. Classificatori con queste caratteristiche vengono spesso chiamati di tipo black-box. Infine, l’approccio di tipo Ibrido combina il metodo Expert System con quello Machine Learning, per ottenere un sistema di categorizzazione che sfrutta sia i benefici derivanti da una conoscenza di dominio, sia i benefici derivanti dalla costruzione di sistemi automatici. Ultimamente, la comunit`a scientifica sta adottando tecniche di TC sempre pi`u innovative che, generalmente, si discostano di molto dagli approcci classici di tipo deterministico. In effetti, una recente tendenza nell’ambito del TC `e quella di sfruttare tecniche di apprendimento basate su metaeuristiche, come gli Algoritmi Evoluzionistici o Genetici. Tecniche di questo tipo sono, general mente, costituite da tre componenti essenziali: • un insieme di soluzioni candidate, chiamato popolazione, costituito da individui o cromosomi. Questi evolvono durante un certo numero di iterazioni (generazioni) generando, alla fine dell’evoluzione, la soluzione migliore; • una funzione obiettivo, chiamata funzione di fitness, usata per assegnare a ciascun individuo un peso (score) che indica la bont`a dell’individuo stesso; • un meccanismo evolutivo, basato su operatori evoluzionistici come crossover, mutazione ed elitismo, che consentono di modificare il materiale genetico degli individui che costituiscono la popolazione. Approcci di questo tipo introducono notevoli vantaggi rispetto alle tecniche classiche. Ad esempio, il meccanismo evolutivo `e noto per essere un metodo robusto e di successo, infatti, `e utilizzato per la risoluzione di molti problemi di ottimizzazione intrinsecamente difficili da risolvere. Inoltre, il meccanismo evolutivo riduce sensibilmente lo spazio di ricerca delle soluzioni ammissibili e molte tecniche evolutive riescono a risolvere problemi complessi senza conoscere il preciso metodo di soluzione. In questo lavoro di tesi proponiamo un modello di classificazione a regole, denominato GAMoN, basato sull’utilizzo di Algoritmi Genetici per l’induzione delle regole di classificazione. Un classificatore H generato dal sistema GAMoN per una data categoria c assume la forma di una disgiunzione di atomi Hic del tipo:Hc = H1 c ∨ · · · ∨ Hr c dove ciascun atomo Hic `e una quadrupla , dove: • Pos = {t1, .., tn} `e l’insieme dei termini positivi, ovvero l’insieme dei termini che sono rappresentativi per la categoria c di riferimento; • Neg = {tn+1, , tn+m} `e l’insieme dei termini negativi, ovvero l’insieme dei termini che sono indicativi della non appartenenza alla categoria; • mi e ni sono numeri naturali, chiamati soglie, tali che mi >= 0 e ni > 0. Intuitivamente, il significato attribuito a ciascun atomo Hic `e il seguente: “classifica il generico documento d sotto la categoria c se almeno mi termini positivi compaiono in d e meno di ni termini negativi compaiono in d”. Infatti, il linguaggio delle ipotesi introdotto da GAMoN `e chiamato MofN+, una estensione dei classificatori di tipo MofN con la componente dei termini negativi. Da qui nasce l’acronimo “GAMoN”, che sta ad indicare un sistema di classificazione testuale basato su “Algoritmi Genetici” di tipo “M of N”. GAMoN `e un sistema di classificazione che nasce come estensione di “Olex-GA”, un modello di classificazione “a regole” basato sul paradigma evoluzionistico e realizzato in precedenti lavori di ricerca. Un classificatore generato da GAMoN coincide con quello di Olex-GA quando mi=1 e ni = 1. Infatti, un classificatore Olex-GA assume il significato “se almeno uno dei termini positivi t1, ..., tn appare nel documento d e nessuno dei termini negativi tn+1, , tn+m appare in d, allora classifica d sotto la categoria c”. Il sistema GAMoN `e stato testato su 13 corpora di benchmark (Reuters-21578, Ohsumed, OH5, OH0, OH10, OH15, Blogs Gender, Ohscale, 20 Newsgroups, Cade, SRAA, ODP e Market) e messo a confronto con altri 5 sistemi di classificazione: BioHEL [18, 48] e Olex-GA [101], che sono sistemi di classificazione a-regole basati sul paradigma evoluzionistico; Ripper [37] e C4.5 [105], che sono sistemi di classificazione a-regole non evoluzionistici; infine, SMO che `e una implementazione di SVM lineare [76]. Gli studi sperimentali mettono in evidenza come GAMoN induca classificatori che sono, al tempo stesso, accurati e compatti. Tale propriet`a `e stata osservata su tutti i corpora utilizzati nella sperimentazione, dove GAMoN ha mostrato sempre un comportamento uniforme. Poich´e i corpora utilizzati si riferiscono a contesti applicativi notevolmente diversi, possiamo affermare che GAMoN ha dato prova di essere un sistema robusto. Complessivamente, GAMoN ha dimostrato un buon bilanciamento tra accuratezza e complessit`a del modello generato; inoltre, `e risultato molto efficiente per la classificazione di corpora di grandi dimensioni. Il seguito della tesi `e organizzato in tre parti principali di seguito elencate: • nella Parte I verr`a definito formalmente il problema del Text Categorization e verranno rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo; • nella Parte II verranno presentati diversi metodi e sistemi di classificazione documentale, al fine di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito della tematica di interesse; • nella Parte III verr`a presentato dettagliatamente il sistema GAMoN. In particolare, verranno riportate alcune definizioni formali quali, ad esempio, il linguaggio e lo spazio delle ipotesi, gli operatori di crossover utilizzati dal sistema e verranno descritti e mostrati i risultati sperimentali ottenuti, attraverso un’analisi comparativa con i sistemi di learning s`u citatiUniversità della Calabri

    Olex Effective Rule Learning for Text Categorization

    No full text
    Dottorato di Ricerca in Matematica ed Informatica,XX Ciclo,a.a. 2006-2007Le prime ricerche nell’ambito del Text Categorization, una sotto-area dell’ Information Retrieval il cui obiettivo `e la classificazione automatica di documenti rispetto a un insieme di categorie predefinite, risalgono ai primi anni ‘60. Tuttavia `e nell’ultimo decennio che tale problema ha ricevuto interesse crescente sia nel settore della ricerca scientifica che in contesti applicativi. Infatti, la disponibilit`a di grandi quantit`a di dati, resa possibile dallo sviluppo delle moderne tecnologie informatiche e dei servizi web affermatisi di recente, ha posto il problema della loro memorizzazione e organizzazione. Nell’ambito della comunit`a scientifica, l’approccio dominante `e basato sull’applicazione di tecniche di tipo Machine Learning, il cui obiettivo `e la definizione di sistemi capaci di “apprendere” automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo Expert Systems (in cui esperti di dominio sono impiegati nella definizione manuale dei classificatori per le categorie di interesse). I sistemi di apprendimento, infatti, mostrano generalmente un’elevata efficacia, consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini. Negli ultimi anni sono stati proposti numerosi metodi, basati su processi di tipo induttivo, per l’apprendimento automatico di classificatori. Questi sistemi sono generalmente basati su tecniche statistiche e spesso sono stati importati nell’ambito del Text Categorization da altre aree dell’Information Retrieval e del Data Mining, come nel caso delle Support Vector Machine, dapprima utilizzate per problemi di regressione e attualmente considerate allo stato dell’arte per il Text Categorization. Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli algoritmi di apprendimento rule-based. I classificatori, specificati come insiemi di regole, hanno la propriet`a desiderabile di essere comprensibili da un lettore umano, al contrario della maggior parte degli altri approcci esistenti, come Support Vector Machine, Neural Network, che sono di tipo black-box, tali, cio`e, che un umano non possa interpretare i classificatori prodotti, n´e intervenire nel processo di apprendimento. 2 Nell’ambito del Text Categorization, il problema dell’induzione di regole pu`o essere in generale formulato come segue. Dati: 1. Una conoscenza pregressa (background knowledge) B, rappresentata come un insieme di fatti logici ground del tipo T 2 d che indicano la presenza del termine t nel documento d (anche altri fatti possono far parte di B); 2. un insieme di esempi positivi, rappresentati come fatti logici ground del tipo d 2 C , che individuano l’insieme dei documenti manualmente classificati sotto la categoria c, cio`e la classificazione ideale di c (l’insieme degli esempi negativi `e definito implicitamente secondo la ClosedWorld Assumption, per cui se un documento d non `e esplicitamente definito come esempio positivo per c, allora esso `e un esempio negativo.); costruire un insieme di ipotesi (il classificatore di c) che, insieme alla background knowledge, soddisfi tutti gli esempi (positivi e negativi). Un problema di questo tipo `e computazionalmente complesso, a meno che non si rilassi il vincolo per il quale l’algoritmo di learning deve rappresentare con esattezza il concetto target e si consentano, invece, delle approssimazioni. Il teorema di Valiant della PAC-learnability (Probably Approximately Correct) fornisce un modello di “learning polinomiale” per un sottoinsieme della logica preposizionale. Nel framework PAC, la quantit`a di risorse polinomialmente limitate (sia in termini di numero di esempi che di tempo computazionale) `e controbilanciata dall’accuratezza delle ipotesi indotte. Le regole indotte a partire dalla background knowledge e dagli esempi (sia positivi che negativi) consentiranno predizioni sull’appartenenza di un documento a una categoria, sulla base della presenza/assenza di un insieme di termini nel dato documento. Comunque, mentre nella teoria computazionale del learning si assume che gli esempi di input siano consistenti con qualche ipotesi nello spazio delle ipotesi, nel Text Categorization ci`o non `e necessariamente vero. Infatti, in generale, non `e possibile classificare un documento sotto una data categoria solo sulla base dei termini che appaiono in esso. L’ipotesi indotta, in tal caso, `e una tra quelle che massimamente soddisfa sia gli esempi positivi che quelli negativi. In questa tesi presentiamo Olex, una nuova tecnica per l’induzione di regole di classificazione di testi. Il problema dell’apprendimento di classificatori in Olex `e definito come un problema di ottimizzazione, in cui la F-misura `e utilizzata come 3 funzione obiettivo. In particolare, obiettivo del task di ottimizzazione `e quello di determinare un insieme ottimo Xc di termini discriminanti (d-terms) capaci di caratterizzare i documenti del training set della categoria c. Un termine discriminante Ts `e una congiunzione di termini “semplici” con un segno (positivo o negativo). Diciamo che Ts appare nel documento d se tutti i termini di cui Ts `e composto appaiono in d. Intuitivamente, un termine positivo che appare in un documento d `e indicativo dell’appartenenza di d alla categoria c; dualmente, un termine negativo `e indicativo di non appartenenza. Quindi, un documento che contenga almeno un d-term positivo e non contiene alcun d-term negativo `e classificabile sotto c, secondo Xc. Il task di ottimizzazione, quindi, pu`o essere definito informalmente come il problema di trovare un insieme Xc di termini tali che l’insieme dei documenti del training set classificabili sotto c, secondo Xc, massimizzi la funzione obiettivo (intuitivamente, aderisca quanto pi`u possibile al training set della categoria c). Dato un insieme (ottimo) di termini Xc, l’ipotesi corrispondente (il classificatore di c) ha la forma seguente: c à T1 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d ::::: c à Tn 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d: e stabilisce la classificazione del documento d sotto la categoria c, se d contiene almeno uno dei termini positivi T1; ::::; Tk e non contiene alcun termine negativo Tk+1; :::; Tn. Quindi, la presenza di un d-term positivo richiede la contestuale assenza di tutti d-term negativi. I classificatori indotti contengono una regola per ogni d-term positivo e tutte le regole condividono la stessa parte negativa, costituita da un letterale negativo per ogni termine negativo in Xc. Notiamo che il linguaggio delle ipotesi di Olex, costituito essenzialmente da clausole di Horn estese da congiunzioni negative di termini, non `e PAC-learnable. Siccome l’insieme che massimizza la funzione obiettivo dipende dalla scelta del vocabolario (cio`e l’insieme dei termini selezionati per l’induzione dei classificatori), al fine di trovare i classificatori “migliori” l’algoritmo di ottimizzazione viene ripetuto con diversi vocabolari di input e infine i classificatori con le migliori prestazioni vengono scelti. 4 Il linguaggio delle ipotesi di Olex `e originale e, come dimostrato dalla sperimentazione, molto efficace nel produrre classificatori accurati e compatti. Gli esperimenti effettuati su due corpora di benchmark generalmente usati in letteratura al fine di confrontare algoritmi di learning, REUTERS-21578 e OHSUMED , hanno confermato le aspettative sul nostro modello. Infatti, su entrambi i data set, Olex ha prestazioni molto elevate, tra le migliori in letteratura; inoltre, a differenza di altri algoritmi di learning che mancano di interpretabilit`a, Olex ottieneinduce modelli di classificazione che possono essere facilmente letti, compresi e modificati da un essere umano. Le elevate prestazioni ottenute sui data set presi in considerazione mostrano che il paradigma “un letterale positivo, zero o pi`u letterali negativi” `e molto efficace. Intuitivamente, possiamo dire che esso consente di catturare gran parte dei documenti corretti (attraverso il letterale positivo) senza tuttavia commetter troppi errori (grazie ai letterali negativi). A differenza di altri sistemi di learning, Olex `e basato su idee molto semplici e dirette e perci`o fornisce una chiara intuizione del modello alla base del processo di apprendimento. Inoltre, Olex presenta diverse propriet`a desiderabili per l’apprendimento di classificatori: ² `e accurato anche per categorie piccole, cio`e con un basso numero di documenti manualmente associati a esse; ² non richiede tutto l’insieme di termini del training set per l’apprendimento ma, al contrario, lavora bene anche su piccoli vocabolari; ² `e robusto, in quanto mostra un comportamento simile su tutti i data set considerati. Inoltre, grazie al fatto di essere rule-based, Olex consente una semplice integrazione della conoscenza di dominio, racchiusa in thesauri, nel processo di apprendimento. L’utilit`a di tale conoscenza nel processo di learning `e stata sperimentata in Olex su due data set, relativi al settore assicurativo e fornitici da una societ`a americana, la FCSI (Full Capture Solutions, Inc). Questa prima sperimentazione ha mostrato che l’utilizzo di conoscenza di dominio d`a solo un piccolo contributo al miglioramento delle prestazioni dei classificatori prodotti. Tuttavia questo risultato deve ritenersi parziale; uteriori test saranno effettuati per stabilire se questo risultato pu`o essere generalizzato oppure l’utilizzo di tesauri pi`u appropriati possa effettivamente apportare un importante contributo nella classificazione documentale. 5 Infine, il sistema sviluppato supporta l’integrazione dell’approccio manuale nell’ apprendimento automatico di classificatori. Grazie all’interpretabilit`a dei classificatori prodotti, infatti, l’ingegnere della conoscenza pu`o partecipare alla costruzione di un classificatore, specificando un insieme di regole da utilizzare congiuntamente a quelle apprese automaticamente. Pi`u in dettaglio, al fine di supportare un approccio ibrido, il sitema Olex `e stato progettato in maniera tale che i classificatori prodotti automaticamente siano modificabili manualmente. Un’ulteriore funzionalit`a introdotta al fine di sfruttare la conoscenza di dominio `e quella che prevede il completamento automatico di un classificatore scritto manualmente. Questa funzionalit`a consente di: ² scrivere un insieme di regole di classificazione, sulla base delle indicazioni dell’ esperto del dominio, e verificarne l’accuratezza ² chiedere al sistema di completare automaticamente il classificatore manuale al fine di migliorarne l’accuratezza. I risultati sperimentali hanno mostrato che questa cooperazione pu`o avere effettivi sinergici, consentendo di ottenere prestazioni migliori sia rispetto all’approccio manuale che a quello automatico. In sintesi, in questa tesi vengono affrontatele questioni su riportate e in particolare: ² viene definito formalmente il problema del Text Categorization e vengono rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo; ² vengono discussi i metodi e i sistemi di classificazione documentale, al fine di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito della tematica di interesse; ² viene presentato il sistema Olex; in particolare, dopo aver definito il problema di selezione dei termini discriminanti, che rappresenta il cuore del nostro metodo, viene dimostrato che tale problema `e computazionalmente difficile e viene poposta un’ euristica per la sua soluzione. ² vengono mostrati i risultati sperimentali ottenuti e viene effettuata una valutazione comparativa delle prestazioni del nostro sistema rispetto ad altri sitemi di learning esistenti in letteraturaUniversità della Calabri
    corecore